Ein einzelnes vergiftetes Dokument könnte „geheime“ Daten über ChatGPT preisgeben

Die neuesten Modelle der generativen KI sind nicht nur eigenständige Chatbots, die Text generieren – sie lassen sich einfach mit Ihren Daten verknüpfen, um personalisierte Antworten auf Ihre Fragen zu geben. ChatGPT von OpenAI kann mit Ihrem Gmail-Posteingang verknüpft werden , Ihren GitHub-Code einsehen oder Termine in Ihrem Microsoft-Kalender finden. Diese Verbindungen bergen jedoch das Potenzial, missbraucht zu werden – und Forscher haben gezeigt, dass bereits ein einziges „vergiftetes“ Dokument ausreicht, um dies zu erreichen.
Neue Erkenntnisse der Sicherheitsforscher Michael Bargury und Tamir Ishay Sharbat, die heute auf der Hackerkonferenz Black Hat in Las Vegas vorgestellt wurden, zeigen, wie eine Schwachstelle in den Connectors von OpenAI es ermöglichte, mithilfe eines indirekten Prompt-Injection-Angriffs vertrauliche Informationen aus einem Google Drive-Konto zu extrahieren. In einer Demonstration des Angriffs, der den Namen „AgentFlayer“ trägt , zeigt Bargury, wie es möglich war, Entwicklergeheimnisse in Form von API-Schlüsseln zu extrahieren, die in einem Drive-Demokonto gespeichert waren.
Die Sicherheitslücke verdeutlicht, wie die Verbindung von KI-Modellen mit externen Systemen und der Austausch größerer Daten zwischen diesen die potenzielle Angriffsfläche für böswillige Hacker vergrößert und die Möglichkeiten zur Einführung von Sicherheitslücken potenziell vervielfacht.
„Der Nutzer muss nichts tun, um kompromittiert zu werden, und er muss nichts tun, damit die Daten herauskommen“, erklärt Bargury, CTO der Sicherheitsfirma Zenity, gegenüber WIRED. „Wir haben gezeigt, dass dies komplett ohne Klicks funktioniert; wir benötigen lediglich Ihre E-Mail-Adresse, geben das Dokument an Sie weiter, und das war’s. Also ja, das ist sehr, sehr schlimm“, sagt Bargury.
OpenAI reagierte nicht unmittelbar auf die Anfrage von WIRED zur Sicherheitslücke in Connectors. Das Unternehmen hatte Connectors für ChatGPT Anfang des Jahres als Beta-Funktion eingeführt und auf seiner Website mindestens 17 verschiedene Dienste aufgelistet , die mit seinen Konten verknüpft werden können. Das System ermögliche es, „eigene Tools und Daten in ChatGPT zu integrieren“ und „Dateien zu durchsuchen, Live-Daten abzurufen und Inhalte direkt im Chat zu referenzieren“.
Bargury sagte, er habe die Ergebnisse Anfang des Jahres an OpenAI gemeldet. Das Unternehmen habe daraufhin umgehend Maßnahmen ergriffen, um die von ihm verwendete Technik zum Extrahieren von Daten über Connectors zu verhindern. Aufgrund der Funktionsweise des Angriffs konnte nur eine begrenzte Datenmenge auf einmal extrahiert werden – vollständige Dokumente konnten im Rahmen des Angriffs nicht entfernt werden.
„Obwohl dieses Problem nicht spezifisch für Google ist, verdeutlicht es, warum die Entwicklung robuster Schutzmaßnahmen gegen Prompt-Injection-Angriffe wichtig ist“, sagt Andy Wen, Senior Director of Security Product Management bei Google Workspace, und verweist auf die kürzlich verbesserten KI-Sicherheitsmaßnahmen des Unternehmens.
Bargurys Angriff beginnt mit einem manipulierten Dokument, das auf dem Google Drive eines potenziellen Opfers geteilt wird. (Bargury sagt, ein Opfer könnte eine kompromittierte Datei auch auf sein eigenes Konto hochgeladen haben.) In dem Dokument, das für die Demonstration ein fiktiver Satz von Notizen aus einem nicht existenten Meeting mit OpenAI-CEO Sam Altman ist, versteckte Bargury eine 300 Wörter lange, bösartige Eingabeaufforderung mit Anweisungen für ChatGPT. Die Eingabeaufforderung ist in weißer Schrift in Schriftgröße 1 geschrieben – etwas, das ein Mensch wahrscheinlich nicht sieht, eine Maschine aber schon.
In einem Proof-of-Concept-Video des Angriffs zeigt Bargury, wie das Opfer ChatGPT bittet, „sein letztes Meeting mit Sam zusammenzufassen“. Er betont jedoch, dass jede Benutzeranfrage im Zusammenhang mit einer Meeting-Zusammenfassung ausreicht. Stattdessen teilt die versteckte Eingabeaufforderung dem LLM mit, dass ein „Fehler“ aufgetreten sei und das Dokument nicht zusammengefasst werden müsse. Die Eingabeaufforderung besagt, dass es sich bei der Person um einen „Entwickler im Zeitdruck“ handele und die KI Google Drive nach API-Schlüsseln durchsuchen und diese an das Ende einer in der Eingabeaufforderung angegebenen URL anhängen solle.
Diese URL ist eigentlich ein Befehl in derMarkdown-Sprache , um eine Verbindung zu einem externen Server herzustellen und das dort gespeicherte Bild abzurufen. Gemäß den Anweisungen der Eingabeaufforderung enthält die URL nun jedoch auch die API-Schlüssel, die die KI im Google Drive-Konto gefunden hat.
Die Verwendung von Markdown zum Extrahieren von Daten aus ChatGPT ist nicht neu. Der unabhängige Sicherheitsforscher Johann Rehberger hat gezeigt, wie Daten auf diese Weise extrahiert werden können , und beschrieben, wie OpenAI zuvor eine Funktion namens „url_safe“ eingeführt hat , um schädliche URLs zu erkennen und die Bildwiedergabe zu stoppen, wenn sie gefährlich sind. Um dies zu umgehen, beschreibt Sharbat, KI-Forscher bei Zenity, in einem Blogbeitrag, in dem er die Arbeit detailliert beschreibt, dass die Forscher URLs aus Microsofts Azure Blob-Cloud-Speicher verwendet haben. „Unser Bild wurde erfolgreich gerendert, und wir erhalten außerdem ein sehr schönes Anfrageprotokoll in unserer Azure Log Analytics, das die API-Schlüssel des Opfers enthält“, schreibt der Forscher.
Der Angriff ist der jüngste Beweis dafür, wie indirekte Prompt-Injektionen generative KI-Systeme beeinflussen können. Bei indirekten Prompt-Injektionen füttern Angreifer ein LLM mit manipulierten Daten, die das System zu schädlichen Aktionen anweisen können. Diese Woche zeigte eine Gruppe von Forschern, wie indirekte Prompt-Injektionen genutzt werden können, um ein Smart-Home-System zu kapern und die Beleuchtung und den Heizkessel eines Smart Homes aus der Ferne zu aktivieren .
Obwohl indirekte Prompt-Injektionen fast so lange existieren wie ChatGPT, befürchten Sicherheitsforscher, dass mit der zunehmenden Anbindung von Systemen an LLMs das Risiko steigt, dass Angreifer „nicht vertrauenswürdige“ Daten in die Systeme einschleusen. Der Zugriff auf sensible Daten könnte Hackern zudem den Zugang zu anderen Systemen eines Unternehmens ermöglichen. Laut Bargury steigert die Anbindung von LLMs an externe Datenquellen deren Leistungsfähigkeit und Nutzen, bringt aber auch Herausforderungen mit sich. „Sie sind unglaublich leistungsstark, aber wie bei KI üblich, geht mehr Leistung mit höheren Risiken einher“, so Bargury.
wired